Сравнение парадигм использования данных: спектр меток

Успешная реализация моделей машинного обучения в значительной степени зависит от доступности, качества и стоимости размеченных данных. В условиях, когда ручная разметка является дорогостоящей, невозможной или требует высокой квалификации, стандартные подходы становятся неэффективными или полностью терпят неудачу. Мы вводим спектр меток, выделяя три основных подхода в зависимости от того, как они используют информацию:Обучение с учителем (SL), Обучение без учителя (UL), а также Полуобучение (SSL).

1. Обучение с учителем (SL): высокая точность, высокая стоимость

SL работает с наборами данных, где каждый вход $X$ явно сопоставлен с известным истинным значением метки $Y$. Хотя этот подход обычно обеспечивает наивысшую предиктивную точность для задач классификации или регрессии, его зависимость от плотной и качественной разметки требует значительных ресурсов. Производительность резко падает при недостатке размеченных примеров, что делает этот подход хрупким и часто экономически неприемлемым для масштабных, динамично изменяющихся наборов данных.

2. Обучение без учителя (UL): обнаружение скрытых структур

UL работает исключительно с неразмеченными данными, $D = \{X_1, X_2, ..., X_n\}$. Его цель — выявить внутренние структуры, базовые распределения вероятностей, плотности или значимые представления внутри многообразия данных. Ключевые применения включают кластеризацию, обучение многообразию и построение представлений. UL чрезвычайно эффективен для предварительной обработки и извлечения признаков, предоставляя ценные инсайты без зависимости от внешнего человеческого вмешательства.

Мост полуобучения

Полуобучение (SSL)— это практический компромисс, при котором используется небольшой, но дорогой размеченный набор данных ($D_L$) для опоры прогнозов, одновременно используя огромный, недорогой неразмеченный набор данных ($D_U$) для моделирования распределения данных. Этот подход смягчает ограничение, связанное со стоимостью разметки, позволяя достигать надежной обобщаемости в реальных условиях.

Diagram of the labeling spectrum showing Supervised, Unsupervised, and Semi-Supervised Learning.

Вопрос 1

Какой подход к обучению специально разработан для снижения высокой зависимости от дорогостоящей ручной разметки данных за счет использования обширных неразмеченных данных?

Обучение с учителем

Обучение без учителя

Полуобучение

Обучение с подкреплением

Вопрос 2

Если основной задачей модели является понижение размерности (например, поиск главных компонент) или кластеризация, какой подход применяется повсеместно?

Обучение с учителем

Полуобучение

Обучение без учителя

Передача обучения

Вызов: Определение цели полуобучения

Концептуализация комбинированной функции потерь

В отличие от SL, который оптимизирует только по точности размеченных данных, SSL требует сбалансированной стратегии оптимизации. Общая функция потерь должна учитывать точность прогнозов на размеченном наборе, одновременно обеспечивая согласованность (например, гладкость или разделение по плотности) на неразмеченном наборе.

Дано: $D_L$: Размеченные данные. $D_U$: Неразмеченные данные. $\mathcal{L}_{SL}$: Функция потерь обучения с учителем. $\mathcal{L}_{Consistency}$: Функция потерь, обеспечивающая гладкость прогнозов на $D_U$.

Шаг 1

Запишите общую форму общей целевой функции $\mathcal{L}_{SSL}$, включающую коэффициент взвешивания $\lambda$ для компонента согласованности на неразмеченных данных.

Решение:
Концептуальная форма общей функции потерь полуобучения представляет собой взвешенную сумму двух компонент: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Скаляр $\lambda$ управляет балансом между точностью меток и использованием структуры данных.